Fivetranとは?-機能/概要紹介-
今年2020年にパートナー契約を結んだ「Fivetran」は、データ統合を自動化することができるツールとなっています。
また、Fivetran社は今年、1億ドルの資金調達しユニコーン企業の仲間入りをしただけでなく、Snowflakeのパートナーオブザイヤーに選出されるなど、現在ユーザーを増やし市場を拡大している企業です。
今回は、Fivetranの概要についてご紹介していきたいと思います。
Fivetranとは
Fivetranはデータ統合自動化サービス(データパイプラインサービス)となります。
様々なデータソース(アプリケーション/データベース/イベント/ファイル)からのデータ抽出し、データ同期先へのロードを自動化することができます。
また、変換/加工処理をデータ同期先であるデータウェアハウス上で行うことができることも主な特徴となります。このようなことから、FivetranはELTツールとも呼ばれています。
Fivetranの機能概要をご紹介する前に、ETLとELTの違いについて少し触れておきたいと思います。
ETLとELTの違い
ETL・ELTいずれも、データソースからデータ抽出を行い、可視化する前までの手法となります。
(はじめの一歩 Fivetran編より)
ここからはそれぞれの特長について見ていきたいと思います。
ETLとは?
E:Extract(抽出)
T:Transform(変換/加工)
L:Load(ロード)
ETLは、データ分析が重要視され始めた当初から利用されている手法になります。
ETLでは、データを抽出した後、データ分析の要件にあった形式にするために、変換/加工処理を行ったうえで、データ同期先にロードを行います。
データ分析を行う上で必要となるデータの保存場所であるデータウェアハウスができた当初は、ストレージの使用量に対するコストが高かったこと、処理に制限があったため、ロードする前に、データを最小限にすることが必要となっていました。
そのため、新たな可視化の要件が発生した際には、改めて要件定義からの設計が必要なことが課題として挙げられていました。
ELTとは?
E:Extract(抽出)
L:Load(ロード)
T:Transform(変換/加工)
ELTでは、データを抽出した後、変換/加工処理をせずに、データ同期先にロードを行います。
そのため、新たな可視化の要件が発生した場合においても、データ同期先であるデータウェアハウスに取り込んだデータを変換・加工するだけで、対応が可能となることがメリットとして挙げられます。
ELTでは、すべてのデータをロードするため、データ容量や処理はデータ同期先のスペックに依存します。
ビッグデータを高速処理可能なクラウド型のデータウェアハウスが登場したことで、ELTにて運用した場合も、以前よりコストをかけずに運用できるようになり、Fivetranはこの方法を使用しているツールになります。
主な製品機能・特徴
Fivetranは、150以上のデータソースからデータを抽出するコネクターを提供しており、抽出したデータをロードすることが可能です。
データの同期先
- Azure Data Explorer(ベータ版)
- Azure Synapse
- BigQuery
- Databricks(ベータ版)
- MySQL(ベータ版)
- Panoply
- Periscope
- PostgreSQL
- Redshift
- Snowflake
- SQL Server
上記がサポートしているデータ同期先(保存先)となっており、主要なデータウェアハウスを網羅しています。現在利用しているデータウェアハウスが含まれている場合は、すぐに利用を開始することができます。
データ同期先の設定方法はとても簡単のため数分で完了し、本設定は初回のみ必要な設定となります。
データの同期先として、以前はデータウェアハウスのみをサポート対象としておりましたが、データウェアハウス以外にもサポートするデータ同期先を随時追加していく予定となっております。
コネクター
Fivetranは、アプリケーション/データベース/イベント/ファイルからデータを抽出できるコネクターを150以上提供しています。
そのため、通常APIを使用してデータを抽出する際に必要となる、APIの仕様やスキーマに関する理解や、APIのアップデートやスキーマに変更があった場合のメンテナンスが不要となり、本来の目的であるデータ分析に注力することができます。
コネクターが提供されていないデータソースからデータを抽出したい場合は、コネクターを作成することも可能となっています。
接続先となるデータソースもWeb解析ツール・CRMシステム・カスタマーサービスなど多岐にわたっているため、業種を問わずご利用いただくことが可能となっています。
また、データの更新頻度は最低でも日次、最短で5分となっており、用途に応じて更新頻度を設定することができます。
変換/加工処理
データをロードした後、同期先であるデータウェアハウスにて変換/加工処理を実施することが可能です。
データを保存するだけでなく、データ分析を行う際によても便利な機能となります。
シンプルな変換/加工であればSQLのスクリプトを作成し、そのスクリプトの処理をデータ同期時、もしくは指定した時間帯実行することが可能となっているだけでなく、dbt(オープンソースの変換/加工ツール)を使用して、より複雑な変換/加工を実行することが可能です。
その他の機能
ログ
各コネクターにて実行されたオペレーションはログとして記録されます。
コネクターにてデータを同期する際に、問題が発生した場合には、メールにて通知することができます。
また、以下のログサービスと連携することが可能となっているため、ログの管理、及び監視をすることができます。
- AWS CloudWatch
- Google Stackdriver
- Azure Log Analytic
まとめ
以上、Fivetranに関する概要紹介でした。
Fivetranは様々なデータソースへの接続、及び保存先へのロードを自動化することができるとても便利なツールとなっています。
データ連携をFivetranにて行うことで、メンテナンスにかかる時間を短縮できるだけではなく、データの保存先に分析に必要なデータが蓄積されているため、すぐにデータ分析を実施することができ、データに基づいた施策を打つことが可能です。
ぜひこの機会に、Fivetranを使ってその魅力をご体感ください。